課程資訊
課程名稱
電腦輔助翻譯
Corpus-assisted Translation 
開課學期
111-2 
授課對象
文學院  外國語文學系  
授課教師
高照明 
課號
FL3233 
課程識別碼
102 50620 
班次
 
學分
3.0 
全/半年
半年 
必/選修
選修 
上課時間
星期四3,4,5(10:20~13:10) 
上課地點
外教104 
備註
本課程中文授課,使用英文教科書。
總人數上限:25人 
 
課程簡介影片
 
核心能力關聯
核心能力與課程規劃關聯圖
課程大綱
為確保您我的權利,請尊重智慧財產權及不得非法影印
課程概述

本課程介紹如何利用科技改善翻譯的品質與速度,內容包括電腦輔助翻譯的原理,英漢平行語料庫的建立、單語及平行語料庫的檢索、中英文術語的擷取、雙語句子的對齊、翻譯記憶系統、搭配語的擷取、及如何利用可比語料庫與各種數位工具來協助翻譯。各週進度如下。
1電腦輔助翻譯概述,如何利用Google Translate 及DeepL機器翻譯系統於前編輯及後編輯﹑如何運用平行語料Linguee及單語語料Netspeak於翻譯實務。
2翻譯記憶系統使用的時機與流程﹑如何利用Omega T建立翻譯記憶並利用翻譯記憶於翻譯實務。如何利用術語庫。
3雲端電腦輔助翻譯軟體MateCat的功能。翻譯記憶的格式(TMX)。模糊比對的原理。如何在Colab上利用grep檢索翻譯記憶。
4 如何用Netspeak與 Linguee來驗證Google Translate 和DeepL的答案是否正確
5 單語語料庫的建置與檢索I:Concordances, Word List, Ngrams(AntConc)。
6. 語料庫的建置與檢索II Keyword List, Collocates(AntConc)及背後的統計。
7 語料庫的建置與檢索III 中文分詞 SegmentAnt+AntConc。Google Colab程式。
8 語料庫的建置與檢索IV 英文詞性標記程式TagAn + AntConc。Google Colab程式。
9 Regular Expressions。詞組與術語的擷取。AntConc,Cuda Text, NLTK, Spacy.
10 平行語料庫的建置 (LF Aligner, AntPConc, CUC_ParaConc)。
11 UNIX for Poets (I)實做(著重grep 指令如何檢索各種資料)
12 UNIX for Poets (II)實做
13 從平行語料庫擷取雙語詞彙﹑術語﹑及搭配語 。
14 可比語料庫的建置與檢索
15 Term Project實做 

課程目標
修課的學生經過一學期的訓練之後能夠將數位工具與翻譯實務結合。知道為何,如何,及何時該使用什麼工具和方法來增進翻譯的品質和速度。在哪些地方可以收集到翻譯資源,以及如何將這些翻譯資源轉成翻譯記憶,並用於電腦輔助翻譯系統。學生修完課之後將熟悉相關的數位工具的步驟及背後的原理。 
課程要求
課程內容已錄製免費線上課程並上傳中華教育開放平台 https://www.openedu.tw/course.jsp?id=1342
如果同學忘記工具或程式如何操作,請觀看上課投影片及課程講解錄影。
1上課出席率10%
2作業: 60% (以下每一項佔總分6分)
(1)利用Google Translate 及DeepL機器翻譯系統於前編輯及後編輯。
(使用之數位工具及技術:Google Translate + DeepL機器翻譯系統。翻譯策略:前編輯及之+後編輯)
(2)運用雙語平行語料庫Linguee, Jukuu, 和我們所開發的中英雙語檢索程式,以及單語語料庫Netspeak於翻譯實務。
(使用之數位工具及技術:雙語平行語料庫之檢索Linguee + Jukuu + 我們所開發的中英雙語檢索程式 + 單語語料庫Netspeak 。翻譯策略:將整句翻譯的問題切割成幾個可以透過雙語平行語料庫及單語語料庫檢索得到答案的小問題)
(3)利用Omega T建立翻譯記憶及術語庫並運用翻譯記憶於翻譯實務。
(使用之數位工具及技術:Omega T電腦輔助翻譯系統+翻譯記憶+術語庫。翻譯策略:根據翻譯記憶中最接近的例句來修改並透過語料庫工具驗證。)
(4)利用AntConc 中Concordances, Word List, Ngrams, Keyword List, Collocates, regular expressions等功能於翻譯實務。
(使用之數位工具及技術:運用AntConc文本分析軟體找出文本的特徵。翻譯策略:依據文本的特徵來進行翻譯或作為翻譯佐證)
(5)利用LF Aligner建置句對齊之雙語平行語料庫並用AntPConc或 CUC_ParaConc檢索雙語語料。
(使用之數位工具及技術:LF Aligner+AntPConc+CUC_ParaConc。翻譯策略:建立翻譯資源)
(6)利用英文詞性標記程式TagAnt , AntConc, CudaText 中Regular Expressions功能擷取英文名詞組並用Colab程式呼叫Google Translate擷取名詞組翻譯。
(使用之數位工具及技術:TagAnt + AntConc + CudaText + Regular Expressions 擷取名詞組+ 呼叫Google Translate擷取名詞組翻譯。翻譯策略:自動取得名詞組翻並根據語料庫的資料修改答案)
(7)運用中文分詞及詞性標記程式擷取中文關鍵詞組。
(使用之數位工具及技術:自動中文分詞 +自動詞性標記程式 + 自動擷取中文關鍵詞組 + 呼叫Google Translate自動擷取中文關鍵詞組的英文翻譯。翻譯策略:自動取得中文關鍵詞組的英文翻譯並根據語料庫的資料修改答案)
(8)呼叫Colab中文以及英文分句程式並呼叫Google Translate取得翻譯。
(9)呼叫Colab英文術語自動擷取程式並呼叫Google Translate取得翻譯。
(10)利用Colab雲端程式建置可比語料庫並用於翻譯實務。
(11)利用grep檢索語料或TMX資料中的翻譯。

3口頭報告: 10% 需包括作業中所涵蓋的數位工具至少6項以上。
4期末書面報告: 20%需包括作業中所涵蓋的數位工具至少6項以上。
 
預期每週課後學習時數
 
Office Hours
另約時間 
指定閱讀
Bowker, Lynne. (2002). Computer-Aided Translation Technology: A Practical Introduction. University of Ottawa Press. Available from NTU library.

Flowerdew, Lynne. (2012). Corpora and Language Education available at https://link.springer.com/chapter/10.1057/9780230355569_1#enumeration

Paquot, Magali and Gries, Stefan. (eds.) (2020). A Practical Handbook of Corpus Linguistics. Available at https://link.springer.com/content/pdf/10.1007%2F978-3-030-46216-1.pdf

Nitzke, Jean, and Hansen-Schirra, Silvia. (2021). A short guide to post-editing. https://langsci-press.org/catalog/book/319

Nitzke, Jean. (2019). Problem solving activities in post-editing and translation from scratch: A multi-method study. https://langsci-press.org/catalog/book/196

Olohan, Maeve. Introducing corpora in translation studies / Maeve Olohan.

Stefanowitsch, Anotol. (2020). Corpus linguistics: A guide to the methodology. Available at https://langsci-press.org/catalog/book/148

Wang, Vincent et al. (2021). New Perspectives on Corpus Translation Studies.
https://link.springer.com/book/10.1007/978-981-16-4918-9

Free Online Course on Corpus Linguistics
Corpus Linguistics: Method, Analysis, Interpretation
https://www.futurelearn.com/courses/corpus-linguistics 
參考書目
Gao, Zhao-Ming. (2011) "Exploring the effects and use of a Chinese–English parallel concordancer." Computer-assisted Language Learning, Vol. 24, No. 3, pp. 255-275.

Gao, Zhao-Ming. (2014). ‘Automatic extraction of English collocations and their Chinese-English bilingual examples: a computational tool for bilingual lexicography’. Concentric Studies in Linguistics, Vol. 40, No. 1, pp. 95-121.

Gao, Z.M. and Chiou, S.-H. (2018). Computer-aided Translation. In Shei, C. and Gao, Z.-M. (eds.). The Routledge Handbook of Chinese Translation, pp. 485.-505.

Gao, Zhao-Ming. (2021). ‘Automatically Compiling Bilingual Legal Glossaries Based on Chinese-English Parallel Corpora’ In Saihong Li and William Hope (eds.) Terminology Translation in Chinese Contexts: Theory and Practice. London and New York: Routledge.

Jacquemin, Christian. (2001). Spotting and Discovering Terms through Natural Language Processing. MIT Press.

Koehn, Philipp (2010) Statistical Machine Translation. Cambridge University Press.

Mikhailov, Mikhail and Cooper, Robert. (2016). Corpus Linguistics for Translation and Contrastive Studies: A Guide for Research. Routledge.

Olohan, Maeve. (2014). Introducing Corpora in Translation Studies. Routledge.

Quah, Chiew Kin. (2005). Translation and Technology. Palgrave Macmillan.

Shei, C. and Gao, Z.-M. (eds.). (2018). The Routledge Handbook of Chinese Translation. Routledge.

Zanettin, Federico. (2012). Translation-driven Corpora: Corpus Resources for Descriptive and Applied Translation Studies. St. Jerome Publishing.
 
評量方式
(僅供參考)
   
針對學生困難提供學生調整方式
 
上課形式
以錄影輔助
作業繳交方式
延長作業繳交期限, 書面報告取代口頭報告
考試形式
書面(口頭)報告取代考試
其他
課程進度
週次
日期
單元主題
第1週
  CH 1: 翻譯學的理論與實務 1.緒論 2奈達的翻譯理論: 形式上的等值翻譯與動態的等值翻譯 3奈達翻譯理論的應用 4貝克的翻譯理論 5貝克的翻譯理論的應用 
第2週
  CH 2:線上辭典、語料庫、與機器翻譯 1 緒論 2 電腦輔助翻譯的組成成分 3 線上辭典 4 雙語語料庫 5單語語料庫6 如何利用語料庫來翻譯 7 如何結合線上辭典﹑語料庫﹑與機器翻譯 8機器翻譯的前編輯與後編輯 (MT Pre-editing and Post-editing)


Chinese-English bilingual concordancer developed by my lab https://nlp.csie.org/~beephoenix/cgi-bin/ctk/index2.html 
第3週
  CH 3:開源電腦輔助翻譯軟體Omega T 1.緒論 2. Omega T概述及軟體安裝3. 如何利用OmegaT對齊原文和譯文句子產生並匯出翻譯記憶檔TMX 4. 翻譯記憶檔TMX檔案格式5. 如何利用Omega T的翻譯記憶及術語表進行翻譯 
第4週
  CH 4:內建機器翻譯的雲端開源電腦輔助翻譯平台MateCat 1. 緒論 2. 如何利用MateCat 對齊雙語平行文本的句子並匯出翻譯記憶3.翻譯記憶檔案格式TMX及的XLIFF 4.雙語平行文本句對齊及翻譯記憶模糊比對的原理簡介 5.使用MateCat進行電腦輔助翻譯的工作流程 
第5週
  CH 5:在地化 1 緒論 2. 在地化概述 3. 如何利用MateCat將PDF檔和網頁在地化 4.軟體在地化:以OmegaT為例 
第6週
  CH 6:雙語句對齊工具、在地化工具、及雙語檢索工具 1. 緒論 2. 雙語句對齊工具:MateCat Aligner、OmegaT Aligner、及LF Aligner 3. 在地化工具:TMX Editor及XLIFF Editor 4. 雙語檢索工具: AntPConc 及CUC_ParaConc  
第7週
  CH 7:如何利用AntConc分析中英文語料1 緒論 2如何利用AntConc分析英文語料 3 如何利用SegmentAnt分詞後以AntConc分析中文語料

文本分析軟體AntConc 4.0.10 版基本功能介紹
https://www.youtube.com/watch?v=V_JrdLXIdfg
 
第8週
  CH 8:如何從單語及平行語料半自動擷取詞組及翻譯 (I)1 緒論2. 利用 TagAnt, Regular Expressions 及CudaText擷取詞組

Chinese Term_Extraction_and_Translation.ipynb https://colab.research.google.com/drive/1xnUASv9Vru9HTLVAImjn2XMJWIk2hiE4 English Term_Extraction_and_Translation.ipynb https://colab.research.google.com/drive/1-evoI5hNqip4mC_ZOpXWsoJvtulss1Qn 
第9週
  CH 9: 如何從單語及平行語料半自動擷取詞組及翻譯 (II)91 緒論 9.2. 如何利用Google Colab呼叫Spacy函數庫來標示英文的詞性標記 9.3. 如何利用Colab上內建的UNIX指令grep結合正規表達式從有詞性的英文語料擷取名詞組 9.4. 如何在Colab直接呼叫Spacy擷取英文文本裡面的名詞組


Mutual_Information_for_English and Chinese Segmented Texts.ipynb

https://colab.research.google.com/drive/18lzKdx-3GWh8mNtTGAPB6kPze8ywln8a?usp=sharing

ROC Bilingual Laws
https://drive.google.com/drive/folders/1Wwt-rSUMhY9Kd6YPZ6e4ceu6NyN_UsC9?usp=sharing 
第10週
  CH 10: 如何從單語及平行語料半自動擷取詞組及翻譯 (III) 10.1 緒論 10.2. 如何在Colab上執行中研院中文分詞程式10.3. 如何在Colab上呼叫中研院中文詞性標記函示庫並用grep結合正規表達式擷取名詞組 10.4. 如何在Colab直接呼叫Spacy執行簡體中文分詞及詞標記函示庫並用grep結合正規表達式擷取名詞組 10.5. 如何從平行語料中擷取中英文名詞組及其翻譯 
第11週
  CH 11:如何在Google Colab上使用程式將翻譯過程自動化 (I) 1. 緒論 2.如何使用程式自動擷取術語並呼叫Google Translate 3.如何執行程式來比較兩個機器翻譯系統的輸出  
第12週
  CH 12:如何在Google Colab上使用程式將翻譯過程自動化 (II) 1.如何利用搜尋引擎和可比語料庫找出類似的翻譯 2. 如何在Google Colab上使用現成的類神經網路機器翻譯系統

ROC Civil Code
https://drive.google.com/drive/folders/1lDGbDa0wPV-jgcp8kBsAxvq9nqIXuhMp?usp=sharing

Extract English Noun Phrases

https://colab.research.google.com/drive/1W7fyJ1sMhrGYjTLTUBL7Z2OA5WtlJKFV?usp=sharing


Extracting Noun Phrases and Invokeing EasyNMT

https://colab.research.google.com/drive/1K2C2I5hrzQ0IumFnTxu2FG7A-24qz2lK?usp=sharing

Extracting Chinese Key Phrases and Translate them into English via EasyNMT
https://colab.research.google.com/drive/1xnUASv9Vru9HTLVAImjn2XMJWIk2hiE4?usp=sharing

Finding similar ngrams via fuzzy matching


https://colab.research.google.com/drive/1y3Q3Rm7gGFKSU8u9Ut8U495cLEO20kyj?usp=sharing



Finding similar phrases or sentences using AI techniques

https://colab.research.google.com/drive/1sisxH1kXkK6DHcY3h_jVMprG-JZwQ84Y?usp=sharing

English Annual Report of MediaTek 2020
https://drive.google.com/file/d/1ImSnvv5-CgGj0KwCb5bnPdE66TuBJZ1C/view?usp=sharing

Chinese Annual Report of MediaTek 2020
https://drive.google.com/file/d/1F8JUo75ROo78SppwuUl-LVBRrvNequAI/view?usp=sharing 
第13週
  CH 13: 如何利用Opus Corpus的雙語平行語料庫建立中英雙語檢索程式 13.1. 大數據中英雙語檢索程式實作

Wikipedia search

https://colab.research.google.com/drive/1Shu1mTm1J_BR7HGvaquXw0LYnGKxqmfV?usp=sharing 
第14週
  CH 14: 如何利用機器翻譯前編輯與後編輯以及EasyNMT神經機器翻譯套件 14.1:如何利用機器翻譯前編輯與後編輯策略14.2:如何利用EasyNMT神經機器翻譯套件
 
第15週
  期末報告